SPSS 卡方独立性检验教程

作者:Ruben Geert van den Berg,归类于 卡方检验

本教程的最新无广告视频版本已包含在我们的 SPSS 初学者课程 中。

  • 零假设 (Null Hypothesis)
  • 假设 (Assumptions)
  • 在 SPSS 中进行卡方独立性检验 (Chi-Square Independence Test in SPSS)
  • 输出 (Output)
  • 报告 (Reporting)

卡方独立性检验的零假设 (Null Hypothesis)

卡方独立性检验是什么

卡方独立性检验 用于评估两个分类变量在某个总体中是否相关联。因此,我们将试图反驳零假设,即两个分类变量在某个总体中是(完全)独立的。如果这是真的,并且我们从这个总体中抽取一个样本,那么我们可能会在样本中看到这些变量之间存在一些关联。这是因为样本往往与其抽取的总体略有不同。然而,如果变量在整个总体中是独立的,那么在样本中不太可能出现变量之间强烈的关联。如果我们的确观察到这种情况,我们将得出结论,这些变量可能并非在我们的总体中是独立的。也就是说,我们将拒绝独立性的零假设。

例子

一个包含 183 名学生的样本对某门课程进行了评估。除了他们的评估外,我们还有他们的性别和专业。数据位于 course_evaluation.sav 中,部分数据如下所示。

SPSS 卡方独立性检验变量视图 720

我们现在想知道:专业是否与性别相关联? 如果是,又是如何关联的?由于专业和性别都是名义变量,我们将运行卡方检验来找出答案。

卡方独立性检验的假设 (Assumptions)

如果满足以下两个假设,则可以信任卡方独立性检验的结论:

  • 独立观察 (Independent Observations)。通常 - 但并非总是如此 - 如果 SPSS 中的每个案例都代表一个独特的人或其他统计单位,则满足此假设。由于我们的数据属于这种情况,我们将假设已满足此假设。
  • 对于 2x2 表格,所有期望频数 > 5。如果你不知道这意味着什么,你可以参考 卡方独立性检验 - 快速入门。对于更大的表格,所有单元格中不超过 20% 的期望频数 < 5,并且所有期望频数 > 1。

SPSS 将在运行检验时为我们检验这个假设。我们稍后会介绍它。

在 SPSS 中进行卡方独立性检验 (Chi-Square Independence Test in SPSS)

在 SPSS 中,卡方独立性检验是 CROSSTABS 过程的一部分,我们可以如下所示运行它。

SPSS 卡方独立性检验菜单 SPSS 卡方独立性检验对话框

在主对话框中,我们将一个变量输入到 R ow(s) (行)框中,另一个变量输入到 C olumn(s) (列)框中。由于 sex (性别)只有 2 个类别(男性或女性),因此将其用作列变量会导致表格显得狭窄而高。它比使用 major (专业)作为列变量所产生的更宽的表格更容易适应我们的最终报告。无论如何,这两种选择都会产生相同的检验结果。

S tastistics (统计)下,我们只需选择 C hi-Square (卡方)。单击 P aste (粘贴)会产生以下语法。

SPSS 卡方独立性检验语法 (Syntax)

***从菜单粘贴的带有卡方检验的交叉表。**
CROSSTABS
/TABLES=major BY sex
/FORMAT=AVALUE TABLES
/STATISTICS=CHISQ
/CELLS=COUNT
/COUNT ROUND CELL.

如果你喜欢,可以使用此语法,但我个人更喜欢下面显示的较短版本。我只需将其键入 Syntax Editor (语法编辑器)窗口,对我来说,这比点击菜单快得多。这两个版本都会产生相同的结果

***带有卡方检验的交叉表 - 简短版本。**
crosstabs major by sex
/statistics chisq.

卡方独立性检验的输出 (Output)

SPSS 卡方独立性检验输出案例处理摘要

首先,我们快速浏览 Case Processing Summary (案例处理摘要)以查看是否有任何案例因缺失值而被排除。这里不是这种情况。对于其他数据,如果排除了许多案例,我们想知道原因以及这是否有意义。

列联表 (Contingency Table)

SPSS 卡方独立性检验交叉表计数

接下来,我们检查我们的列联表。请注意,它的边际频数 - 在表格边距中报告的频数 - 分别显示每个变量的频率分布。

这两个分布看起来都是合理的,并且由于没有“无回答”类别,因此无需指定任何 用户缺失值

显著性检验 (Significance Test)

SPSS 卡方独立性检验显著性输出

首先,我们的数据符合我们之前提到的所有期望频数 > 5 的假设。由于这种情况成立,我们可以依赖于我们的显著性检验,我们使用 Pearson 卡方。

通常,如果 Asymptotic Significance (2-sided) (渐近显著性(双尾))< 0.05,我们就说两个变量之间的关联在统计上是显著的,这里显然是这种情况。

显著性通常被称为“ p ”,是 probability (概率)的缩写;它是如果在整个总体中我们的变量是独立的,则观察到我们的样本结果的概率。在我们的例子中,这个概率是 0.000。

结论:我们拒绝零假设,即我们的变量在整个总体中是独立的。

理解变量之间的关联 (Understanding the Association Between Variables)

我们得出结论,我们的变量是相关联的,但是这种关联是什么样的呢?好吧,一种方法是检查列或行百分比。我将通过在我的语法中添加一行来计算它们,如下所示。

***仅在输出中显示变量/值标签。**
set tvars labels tnumbers labels.

***带有频率和行百分比的交叉表。**
crosstabs major by sex
/cells count row
/statistics chisq.

调整我们的表格 (Adjusting Our Table)

由于我对新运行的表格的格式不太满意,因此我将右键单击它并选择 E dit Content (编辑内容) SPSS 菜单箭头 In Separate W indow (在单独的窗口中)。

SPSS 透视表编辑内容单独窗口

我们选择 P ivoting Trays (透视托盘),然后将 S tatistics (统计)拖放到“What’s your gender?”(你的性别是什么?)的正下方。我们将关闭透视表编辑器。

SPSS 透视表透视托盘 SPSS 重新排列透视托盘

结果 (Result)

SPSS 卡方独立性检验关联

我们样本中大约一半是女性。然而,在心理学中,高达 87% 是女性。也就是说,女性在心理学学生中占比过高。像这样,专业“说明”了性别:如果我知道某人学习心理学,我就知道她可能是女性。

经济学学生的模式相反:其中约 80% 是男性。简而言之,我们的行百分比描述了我们通过卡方检验建立的关联

我们可以通过将 Cramér’s V 添加到我们的检验来量化关联的强度,但我们将把它留到以后再说。

报告卡方独立性检验 (Reporting a Chi-Square Independence Test)

我们可以这样报告显著性检验:“观察到性别和专业之间存在关联, χ 2 (4) = 54.50, p = 0.000。”此外,我建议在报告中包括我们的最终列联表(带有频率和行百分比),因为它提供了对关联性质的很多见解。

这就是现在的全部内容。感谢阅读!